ROCm và HIP: Hướng dẫn chi tiết 10 chương: Sự thay đổi tư duy đồng bộ hóa GPU

Sự chuyển đổi cốt lõi trong tính toán hiệu suất cao bao gồm việc chuyển từ mô hình thực thi tuần tự lấy CPU làm trung tâm sang mô hình sản xuất - tiêu thụ tách biệt, nơi CPU quản lý luồng công việc còn GPU hoạt động độc lập. Nhận thức cốt lõi là rằng GPU không được thiết kế để vận hành như một thiết bị đồng bộ nghiêm ngặt; việc coi nó như vậy sẽ tạo ra một nghẽn cổ chai kiểu "dừng lại và chờ".

1. Chu kỳ vòng đời quy trình làm việc

Trong tư duy bất đồng bộ, nhà phát triển không cần đợi mỗi tác vụ hoàn thành. Thay vào đó, họ phân bổ bộ nhớ, khởi chạy kernel, và sao chép lại kết quả bằng cách đưa các yêu cầu không chặn vào hàng đợi phần cứng.

2. Vượt qua các tình trạng nghẽn

Khi máy chủ bị buộc phải đồng bộ hóa sau mỗi thao tác, khoảng cách thực thi—thời gian di chuyển giữa CPU và GPU—chiếm ưu thế về hiệu suất. Bằng cách tận dụng tính bất đồng bộ, CPU tiếp tục làm việc trong khi GPU xử lý luồng của mình, tối đa hóa mức độ bão hòa phần cứng.

$$\text{Thời gian Tổng cộng} = \max(\text{Công việc CPU}, \text{Công việc GPU}) + \text{Chi phí Đồng bộ}$$

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which set of steps correctly converts a synchronous vector-add to use an explicit stream?

Call hipStreamCreate, use hipMemcpyAsync with the handle, and pass the handle as the 4th kernel argument.

Call hipDeviceSynchronize after every kernel launch and use hipMemcpy.

Set the stream parameter to NULL in all hipMemcpyAsync calls.

Replace hipMalloc with hipHostMalloc exclusively.

QUESTION 2

Why is a GPU considered 'not meant to be driven as a strictly synchronous device'?

Because it has no internal clock.

Because waiting for the CPU to confirm every command leaves thousands of cores idle.

Because memory transfers cannot be tracked by the CPU.

Because the GPU must manage its own power state.

QUESTION 3

What is the primary risk of forcing the host to synchronize after every operation?

Memory corruption.

Host-side stalling and loss of hardware saturation.

Increased power consumption on the GPU.

Kernel compile errors.

QUESTION 4

In the logistics warehouse analogy, what does the 'Conveyor Belt' represent?

A HIP Stream.

The GPU Driver.

The CPU Cache.

The VRAM buffer.

QUESTION 5

True or False: hipMemcpyAsync returns control to the CPU before the data transfer is complete.

True

False